10. 练习:动作值函数

练习:动作值函数

正确或错误?:对于确定性策略 \pi

v_\pi(s) = q_\pi(s, \pi(s))

适用于所有 s \in \mathcal{S}

在回答这个问题时,可以使用上述状态值函数和动作值函数作为确定性策略示例。

上述语句正确与否?

SOLUTION: 正确